home *** CD-ROM | disk | FTP | other *** search
- ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
- This is the french version. The english version will be available on our
- web site as soon as possible.
- ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
- Analyse des BENCHs de la CENTurbo II Rev B
- et de l'AFTERBURNER 040.
-
- CENTEK - 25 Juin 98
-
- La CT2 multiplie réellement par 6 (31,2Mo / 5,3Mo) la bande passante
- de la RAM, à condition que les programmes soient bien codés (alignement
- du code sur 32-Bit !).
-
- Le bus FALCON (ST-Ram) est à 25 MHz avec la CT2 et 16 MHz avec l'AB40.
- Et ceci se voit sur les tests graphiques qui se passent beaucoup
- en ST-Ram (c'est là que se trouve la ram vidéo !!)
-
- Le seul test intéressant de GEMBENCH c'est l'Integer Div qui donne
- 329% pour l'AB40 et 315% pour la CT2. Pourquoi ?
- D'un coté, le 040 exécute un DIVU.W en 27 cycles d'horloge et
- il est cadencé à 32 MHz. Sur le 030 (Falcon d'origine et CT2), le
- DIVU.W est exécuté en 44 cycles d'horloge (50 MHz sur CT2) !
-
- Pour la CT2, nous avons la régle de trois suivante :
- (44/44) 44 cycles pour le 030
- x (50/16) 50 MHz pour la CT2 et 16 MHz pour le F030 d'origine.
- = 3,125 soit 312 %
-
- Pour l'AB40, nous avons la régle de trois suivante :
- (44/27) 44 cycles pour le 030 et 37 cycles pour le 040
- x (32/16) 32 MHz pour l'AB40 et 16 MHz pour le F030 d'origine.
- = 3,259 soit 326 %
-
- La théorie et la réalité sont très proches...
-
- Il faut dire que le reste des tests de GEMBENCH n'est pas très sérieux !
- En effet, ce logiciel, qui est malheureusement la référence possède
- des tests qui sont fortement en rapport avec NVDI et exploite donc les
- avantages de NVDI sans les inconvénients.
-
- En dehors de la partie graphique, la partie CPU (INTEGER DIV, FPU, RAM
- et ROM access) vaut son pesant d'absurdité !!
- En effet, si vous comparez l'écart entre CT2 et AB40 pour l'accès RAM
- chez GEMBENCH et celui chez NEMBENCH ou DAVEBENCH, vous pouvez vous
- poser de grandes questions et comme il n'est jamais trop tard pour
- comprendre... :
- Gembench a des routines de test qui ne tiennent pas compte du temps
- machine pris pour s'exécuter. Ce qui signifie que plus le processeur a
- un gros cache et plus le test tourne vite (puisque d'avantage dans le
- cache !), ce qui N'A RIEN A VOIR avec le pourquoi du test, à savoir
- la capacité du CPU à accéder à la RAM !!
- Par contre NEMBENCH et DAVEBENCH tiennent compte du temps des
- instructions du programme et utilisent des MOVE pour lire les octets
- en RAM.
- C'est comme le bon vieux problème d'utiliser en labo des appareils de
- mesure qui n'altèrent pas le phénomène mesuré. Dans notre cas, il faut
- bien entendu soustraire au résultat le temps d'execution de la routine
- de test !
- Ce que GEMBENCH ne fait pas mais que NEMBENCH ET DAVEBENCH font !
- C'est ainsi que le test RAM ACCESS de Gembench donne tant
- d'avantage pour l'AB40, car le 040 a un cache de 2 x 4 ko contre
- 2 x 256 octets pour le 030 de la CT2 !! Mais si on fait les tests
- cache OFF, là, la CT2 domine l'AB40 avec son BUS FAST-RAM à 50 MHz et
- son CPU à 50 MHz contre le bus 32 MHz et le CPU à 32 MHz de l'AB40 !!
-
- Il est facile de faire les calculs pour prouver cela:
- Pour la CT2:
- Une ligne de cache (4 LONGS) est lue en BURST à 50 MHz
- en 5 + 2 + 2 + 2 = 11 cycles 50 MHz avec la ram EDO 60 ns.
- De plus l'instruction MOVE.L prend 5 cycles sur le 030.
- Lors du BURST, le premier LONG est envoyé de suite dans l'unité
- d'exécution du processeur et exécuté en même temps que l'arrivée des 3
- LONGS suivants (en 2+2+2 cycles !), soit un temps machine de seulement
- 3 MOVE à compter, soit 5+5+5=15 cycles. C'est là tout l'intérêt
- d'avoir un CPU à 50 MHz permanant au lieu de DX2 (50 MHz losqu'il ne
- prend pas le bus et 25 MHz lorsqu'il transfert sur le bus, donc lors
- du BURST !!!).
- Concluons : nous avons donc 12 cycles de transfert + 15 cycles
- d'exécution, soit un total de 26 cycles à 50 MHz.
- Ce qui revient à dire que 16 octets sont lus en 26 cycles, soit
- 16/26 x 50 000 000 = 30.77 Mo / seconde ! C'est pas loin !
-
- Pour l'AFTERBURNER 040:
- Une ligne de cache est lue en BURST à 32 MHz
- en 3 + 2 + 2 + 2 = 9 cycles 32 MHz (ne gère pas la fonction EDO, sinon on
- aurait pu avoir du 3 + 1 + 1 + 1 = 6 - dommage !).
- L'instruction MOVE.L s'exécute sur le 040 en seulement 2 cycles !
- Soit 3 MOVE.L en 6 cycles.
- Concluons : nous avons donc 9 cycles de transfert + 6 cycles
- d'exécution, soit un total de 15 cycles à 32 MHz.
- Ce qui revient à dire que 16 octets sont lus en 15 cycles, soit
- 16/15 x 32 000 000 = 34,13 Mo / seconde ! C'est pas loin du tout !
-
- Voila, vous savez maintenant très simplement calculer la bande
- passante d'un processeur sur un bus d'unité centrale...
-
-
- CENTEK
-